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图 优化 的 低 秩 双 随机 分 解 聚 类 C 
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摘 E: 低 秩 双 随 机 甜 阵 分 解 聚 类 (low-rank doubly stochastic matrix decomposition for cluster analysis，DCD) 是 最 近 由 
Yang 等 人 [16] 提 出 的 一 种 图 聚 类 方法 ， 它 通过 最 小 化 KL(Kullback-Leibler) 散 度 准则 : KL(A, S), AA XXE ME S 中 获 
得 一 个 非 负 低 秩 双 随 机 和 矩阵 分 解 : A=UUT(U>0)， 并 以 U 作为 类 标签 矩阵 进行 聚 类 。 在 DCD Zv, REH SAE 
定 不 可 变 的 ， 故 S 初始 取 值 选取 的 好 坏 对 聚 类 结果 有 极 大 影响 ， 这 导致 了 它 缺乏 稳定 性 。 针 对 这 一 问题 ， 提 出 了 一 种 
基于 图 优化 的 DCD Fik, HA XKE S 和 DCD 的 优化 集成 在 统一 框架 中 ， 这 改进 和 拓展 了 原始 的 DCD 方法 。 实 
验 结果 表明 ， 与 DCD 方法 相 比 ， 图 优化 的 DCD 方法 具有 更 好 的 聚 类 精确 度 和 稳定 性 。 
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Graph-optimized low-rank doubly stochastic decomposition for clustering 


Zhang Tao, Hu Enliangi, Yu Jingli 


(Department of mathematics Yunnan Normal University, Kunming Yunnan 650500, China) 


Abstract: Clustering by DCD (low-rank doubly stochastic matrix decomposition) was recently proposed by Yang[16] as a 
method of graph clustering. DCD obtains a nonnegative low-rank doubly stochastic decomposition A=UUT(U>0) from the graph 
correlation matrix S by minimizing the criterion of KL (Kullback-Leibler) divergence: KL (A, S) , and clustering from U, as the 
class label matrix. In the method of DCD, because the S is pre-fixed, the initial value of S has a great influence on the clustering 
result, which leads to its lack of stability. Aiming at this problem, propose a DCD method based on graph optimization , and the 
optimization of graph correlation matrix S and DCD is integrated in a unified framework, which improves and extends the 
original DCD. The experimental results show that the graph-optimized DCD has better clustering accuracy and stability than the 
original DCD. 
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0 引言 1 ”相关 背景 介绍 
聚 类 是 根据 “ 物 以 类 聚 "思想 ,将 本 身 没有 类 别 的 对 象 聚 集成 11 图 聚 类 
不 同 的 艇 ,并 且 对 每 一 个 这 样 的 复 进 行 描述 的 过 程 。 聚 类 的 目的 图 聚 类 算法 站 是 建立 在 图 理论 基础 上 ,其 本 质 是 先 
是 使 得 属于 同一 个 篮 的 对 象 之 间 彼 此 相似 ,而 不 同 复 之 间 的 对 象 ”表示 对 象 之 间 的 关系 ,再 将 聚 类 问题 转换 为 图 划分 问题 ,这 是 一 


足够 不 相似 


o 


于 密度 的 方法 ,如 DBSCANDES; 基于 神经 网 络 的 方法 ,如 SOMIS — 权 配 置 (3 方式 也 多 种 多 样 ,其 中 使 用 较 多 的 方法 是 0-1 二 值 权 习 


聚 类 分 析 是 机 器 学 习 、 数 据 挖掘 和 模式 识别 等 领域 ”种 点 对 聚 类 算法 。 在 图 聚 类 中 ,对 象 间 的 图 结构 由 一 个 关联 矩阵 
的 重要 研究 内 容 之 一 。 根 据 方法 类 型 , 聚 类 算法 大 体 可 以 分 为 以 ”来 表达 ,图 构建 的 质量 将 最 终 决定 聚 类 结果 的 好 坏 。 图 构建 过 程 


下 几 类 : 基于 划分 的 方法 ,如 K-means!!, K-medoidsPl4z; 3t ”通常 包括 图 的 边 选择 与 边 权 配置 两 步 。 广 泛 使 用 的 边 构 造 方式 
层次 的 方法 ,如 CUREDI 等 ， 基 于 网 格 的 方法 ,如 STINGIm 等 ; 基 A KERR, s 球 近邻 图 中 和 全 连接 图 等 。 图 的 边 建成 后 , 边 


等 ， 基 于 图 的 方法 ,如 Normalized cutt 等 。 不 同 聚 类 方法 拥有 各 ”和 利用 热 核 函数 的 权重 设置 [3 等 。 


» 


自 的 优点 ,但 在 一 定 程度 上 也 都 存在 各 自 的 缺点 ,因此 探索 新 的 1.2 RANDELIN ERK 


pin 


聚 类 方法 具有 重要 意义 。 本 文 提 出 的 新 聚 类 方法 属于 基于 图 的 在 过 去 的 10 年 里 , 低 秩 矩阵 分 解 技术 逐渐 在 机 器 学 习 与 数 
聚 类 方法 。 据 挖掘 领域 获得 诸多 应 用 。 特 别 地 , 非 负 低 秩 矩阵 分 解 技术 已 成 
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博士 ， 


录用 稿 


功 应 用 于 聚 类 方面 。1999 年 ,Huffmant14 提 出 利用 概率 潜 语 意 指 
示 来 分 割 数据 ,矩阵 分 解 中 使 用 KL(GKullback-Leiblen) 散 度 代 蔡 传 
统 的 欧 氏 距离 。2001 年 ,Lee 等 人 05 提 出 的 非 负 和 矩阵 分 解 方法 将 
矩阵 成 对 分 解 成 2 个 非 负 低 秩 矩 阵 的 乘积 形式 。2010 Æ, Ding 
等 人 (9 提出 非 负 和 矩阵 分 解 近似 传统 K-means 方法 。2013 fF, 

Arorat 等 人 Ro 提出 左 随 机 和 矩阵 分 解 近 似 于 左 随机 和 矩阵 所 产生 的 
相似 矩阵 。 等 人 0 提出 了 一 种 非 负 低 秩 双 随机 先 
阵 分 解 (low-rank doubly stochastic matrix decomposition,DCD) 的 
图 聚 类 方法 ,DCD 的 主要 思想 是 : 最 小 化 图 关联 矩阵 和 一 个 低 秩 
双 随 机 和 矩阵 之 间 的 KL 散 度 ,其 中 双 随 机 垂 阵 由 聚 类 标签 矩阵 的 
乘积 构成 。 若 记 rank(U)=r, 则 x- 秩 双 随 机 和 矩阵 集合 


最 近 ， 


Yang 


可 表示 如 下 : 


-[AlA-UU',U 20,3. A, =1}. 
若 记 rank(W)=r H. 


3-|ala "Ey " XX. aeo 


> Yang 等 人 M9 证 明了 以 上 集合 A 与 包 等 价 , 即 有 如 下 定理 。 

N 

N 定理 109 A lg. 

eN 以 上 定理 说 明 ,BB UROXUBRUE TER. 相对 于 集合 A 的 表 

e 示 , 集 合子 的 表示 形式 更 有 利于 优化 求解 ,因此 本 文 以 下 对 双 随 

LO 机 和 矩阵 集合 的 表述 将 基于 集合 po 

GB üw- [usse] eR 为 竺 求 取 类 标签 箱 阵 (其 中 

o w, e R” ), s* 为 初始 设 定 的 图 关联 矩阵 , 则 DCD 方法 对 应 的 优化 

N ams 

P min : J(W) =KL(B, S°) - (æ —-1)logW, Q) 

>< AF: 

& 

c KL(B,S*)-5^. [tee -s+a | 

© WD A" -LW 20,Hl p cg. 

在 式 (1) 中 ,目标 函数 J(w) 的 第 一 项 则 在 最 小 化 相似 矩阵 S9 

与 双 随机 和 矩阵 B 的 KL 散 度 ,第 二 项 则 强化 w 的 非 负 性 。 为 了 求 
解 (1), 文 献 19I 中 先 利 用 拉 格 朗 日 乘 子 法 消除 约束 ,再 令 新 目标 函 
ARF w 的 导数 为 零 ,最 后 利用 乘 性 更 新 (multiplication update) 


算法 欠 代 求解 聚 类 标签 矩阵 玩具 体 推 导 过 程 请 详 见 文 献 09。 
1.3 DCD 聚 类 方法 存在 的 不 足 及 改进 
在 图 聚 类 方法 中 ,图 的 构造 是 无 监督 的 ,因此 带 有 一 定 的 随 
机 性 ,这 将 导致 以 下 一 些 不 足 : a) 图 或 其 对 应 的 关联 矩阵 go 是 人 
为 预先 定义 的 ,在 后 续 学 习 过 程 中 不 能 被 优化 ;b) 图 构造 时 仅 利 
用 了 原始 数据 的 空间 结构 ,而 这 种 原始 结构 不 一 定 最 有 利于 后 续 
的 聚 类 任务 ;c) 图 构建 时 涉及 到 边 权重 的 配置 方式 ,这 常 导致 参数 
选择 困难 (例如 ， P E 的 选择 )。 

为 了 解决 上 述 这 些 不 足 , 受 图 优化 降 维 研究 07348 的 启发 ,本 
文 将 在 第 3 部 分 提出 图 优化 的 低 秩 双 随 机 矩阵 分 解 聚 类 ( 简 记 为 
GoDCD), 该 方法 将 图 的 优化 过 程 合 并 到 DCD 目标 函 


数 的 优化 中 ， 


ChinaXiv 合 作 期 刊 
K ME UNAX E s: UL f 聚 类 


从 而 获得 图 (关联 和 矩阵) 优化 和 双 随 机 矩阵 分 解 的 同步 学 习 框架 
本 文 的 算法 优点 是 :在 GoDCD 中 ,图 构建 不 是 初始 固定 的 ,而 是 
随 着 算法 迭代 会 被 逐步 优化 ,因此 GoDCD 能 减轻 对 初始 关联 算 
阵 的 依赖 ,寻找 到 更 合适 于 后 续 聚 类 任务 的 图 关联 窍 阵 。 


2 ”图 优化 的 双 随机 分 解 聚 类 


2. 模型 建立 
在 DCD 模型 中 ,图 构建 等 价 于 构造 初始 的 图 关联 矩阵 go 。 
E so 构造 得 不 好 , 则 后 续 聚 类 效果 会 很 差 ,为 了 部 分 克服 此 问题 ， 
本 文 提出 的 GoDCD 模型 将 图 优化 与 DCD 聚 类 模型 集成 到 统一 
的 学 习 框 架 下 ,其 目标 函数 为 
min : J(W,S)= KL(B,S) - (a — DlogW, 
* AKL(S, S") 


Q) 


KL(B, s-x[s log. -5, t J 


ij 


KL(S, sx [s log -S+ s,) 


Bel: 

对 比 问 题 式 (1)(C2) 中 的 两 个 模型 ,容易 看 出 GoDCD 5 DCD 
的 目标 函数 区 别 在 于 : 

a)GoDCD tk DCD 多 了 一 项 , 即 KL(S,S") ,其 作用 是 将 在 S? 
的 邻 域内 优化 一 个 比 go 更 优 的 关联 矩阵 S; 

b) 对 应 于 DCD FT KLB, St) Æ GoDCD 中 被 蔡 换 为 
KL(B, S) ,其 目的 是 在 更 优 关 联 抢 阵 SCIES so ) 的 基础 上 来 进 
行 低 秩 双 随 机 分 解 聚 类 。 

NE DCD 中 仅 丈 被 优化 ,而 在 GoDCD 中 Wf S 同时 被 优 
化 ,这 相当 于 将 图 优化 和 低 秩 双 随 机 分 解 集成 在 同一 个 目标 函数 
中 ,其 目的 是 使 图 构建 (对 应 9 和 聚 类 (对 应 历 达 到 联合 最 优 。 
2.2 ”模型 求解 
姑 为 目标 函数 J(W,s) 为 非 凸 函数 , 故 求解 问题 式 (2) 属 于 非 
凸 优 化 问题 。 对 此 问题 ,本 文采 用 交 蔡 最 小 化 方法 对 其 迭代 求解 ， 
即 先 固定 5, 求 解 关于 W 的 子 问 题 ;再 固定 夯 求 解 关于 S 的 子 问 
题 ,具体 如 下 : 


T 


|: 


M 


W"'zargmin : J(W, $^?) 3) 
S" zargmin : JW", 5) (4) 
由 此 产生 的 迭代 序列 如 下 : 
SW — SO WO HS. OW 2S...。 
对 子 问 题 式 (3) 的 求解 ,可 直接 使 用 文献 [16] 中 的 DCD 求解 
算法 。 对 于 子 问 题 式 (4), 其 解 具 有 封闭 形式 ,具体 推 时 如 下 : 
S J=J(WP S) ,对 S, 求 偏 导数 ,得 
ed -log$,-logB; -A(logS,-logS;) 其 中 (由 定理 1), 


0S. 


ij 
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(DO 


W, Wi 


42 -0, 得 
0S, 

(A *1)log S, =logB - Alog S; 
€ (4*DlogS, -log B? *log(S7) 
eS, - 4[BP x (Sy 

即 得 


s? -(B^xcsy ) - 


综述 所 述 , 对 GoDCD 模型 的 求解 算法 可 整理 为 算法 1。 
算法 1 Gopcp 求 解 算法 

初始 化 ， GEB, go _ go， p11. 

Ia RAIRE w . 


Repeat 
Stepl( W 更 新 ): F DCD 求解 算法 解 子 问题 : 


W'—argmin : J(W, S) ; 


Step2( S 更 新 ): B =(B° 3 (spy y” ! 


Step3: (-t*1; 
Until JOQW»,s)— Jw'".s")eg 
或 者 t> itermax 


Li 


输出 : Ww -w?" ,结束 。 
以 下 定理 2 表明 算法 1 是 收敛 的 。 


定理 2 若 {7(W%,80)} 是 由 算法 1 产生 的 序列 , 则 该 序列 


收敛 。 
证 明 


问题 式 3) 和 (4) 可 知 ， 


J(w*,s?)« r(w9,s*") < z(w',s*") RE {y (w°,s°)} Æ 


单调 递减 序列 。 又 因为 J(W0,80)>0 , fr ELE (CT F1 
{7(Ww9%,8%)} 有 下 界 。 根 据 单调 有 界定 理 可 知 , 有 下 界 的 单调 递 


减 序列 必 有 极限 ,所 以 Ur (ws?) 有 极限 ,这 说 明 算法 1 收敛 。 


3 ”实验 结果 与 分 析 


3.1 实验 数据 描述 和 实验 设置 
本 文 以 全 连接 的 热 核 权重 图 为 基础 ,对 应 的 图 初始 关联 矩阵 


J SJ ss Ea. RAR x M x, 的 关联 程度 。 本 文选 取 9 个 数据 


P, 


EXIT SCUS E 
glass, heart, Balance scale 和 breast_cancer, 均 来 自 于 UCI 数据 


Nar 


门 分 别 是 iris. leaf, sonar. chessboard, wine, 
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WEE 


3 VAS 


集 (http://archive.ics.uci.edu/ml/datasets.html;), 其 信息 如 表 1 所 
示 。 实 验 中 ,对 比方 法 共 3 种 ,分 别 是 Nuct!, DCDUSURU A XC Rf] 
GoDCD 方法 。 对 比 的 指标 是 用 聚 类 纯度 Cluster purity) 06 来 


表达 聚 类 的 精确 度 。 聚 类 纯度 定义 为 
CP - LY max (n, 6) 
nu `T 


del 实验 使 用 的 数据 集 及 其 信息 


数据 样本 维 数 KA 
iris 150 4 3 
leaf4 40 14 4 
sonar 208 60 2 
chessboard 100 2 2 
wine 178 13 3 
glass 214 9 6 
heart 270 13 2 
Balance scale 625 4 3 
breast cancer 682 9 2 


其 中 : n 为 数据 集中 的 样本 总 数 ,为 算法 聚 类 后 属于 第 人 类 ， 
但 在 原 数据 中 属于 第 | 类 的 样本 数 CRUS. n 


data samples in the cluster 大 


is the number of 


that belong to ground- 
其 值 越 大 则 表明 聚 类 


truth class 
精确 度 越 高 。 
3.2 在 聚 类 精确 度 上 的 对 比 

X2 实验 中 聚 类 纯度 对 比 


1) 094。 显 然 ，0<CP<1， 


Nuct dcd GoDCD 
iris 0. 8933 0.72 . 0.9067 
Sonar 0.5337 0.5433 0.5721 


chessboard 0. 54 0. 57 0. 57 


Wine 0.6742 0.6798 0.6966 
glass 0.5047 0.5467 0.5606 
Heart 0.5556 0.6074 0.6074 
leaf4 0.8 0.475 0.525 
Balance scale 0.7832 0.7104 0.7392 
breast cancer | 0.9589 0.9399 0.9707 


聚 类 纯度 是 表示 聚 类 标签 值 与 真实 标签 值 的 相合 程度 。 为 
了 验证 GoDCD 的 有 效 性 ,在 表 2 中 列 出 了 聚 类 纯度 对 比 结果 ,从 
中 可 以 看 出 : 

a)DCD 在 iris、sonar、wine、sonar、chessboard 和 heart 上 
的 聚 类 纯度 要 明显 高 于 Ncut 方法 。 其 原因 是 , 相 比 于 Neut 方 
法 ,DCD 方法 不 但 考虑 和 利用 了 数据 的 图 结构 ,而 且 还 利用 低 秩 
双 随 机 分 解 来 增强 聚 类 效果 。 

b) 除 了 在 chessboard 和 heart 数据 集 外 ,GoDCD 的 聚 类 纯度 
明显 高 于 DCD., 特别 地 ,在 iris 数据 集 上 ,GoDCD 方法 要 比 DCD 
方法 高 出 20% 左 右 。 其 原因 是 DCD 仅 考虑 在 初始 图 构建 上 聚 类 


DS 


au 


in 
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最 优 ,而 GoDCD 同时 考虑 了 图 构建 和 聚 类 二 者 
c)fE leafd 数据 自 


3.3 ”模型 参数 对 聚 类 纯度 的 影响 


3.3.1 参数 a 的 影响 


关 合 最 优 。 


RA E,GoDCD 和 原始 DCD 方法 都 没有 Neut 
高 。 其 原因 可 能 是 双 随 机 分 解 方 法 不 适合 该 数据 集 。 


0.71 0 
| .NN —HB— oco 
——EBH— GoDCD 
07 —EB— oo 0.8 
——EBH-—— GoDCD 
g 
& 0.69 5 07 
0.68 0.6 
0.67 0.5 
0.8 0.85 0.9 0.95 1 1 14 12 13 14 1.5 
Q Q 
图 1 数据 集 wine 上 不 同 a 2 图 2 数据 集 iris 上 不 同 & 参数 
值 对 应 的 聚 类 纯度 数值 对 应 的 聚 类 纯度 


若 聚 类 纯度 相对 于 参数 w 
明 算 法 相对 于 a 较 稳定 。 
在 wine 和 iris 数据 集 上 ， 


M 


3.3.2 参数 1 的 影响 


Tr 


图 1 和 图 


的 不 同 取 值 上 下 浮动 较 小 , 则 表 
2 分 别 给 出 了 DCD 5 GoDCD 
使 用 不 同 a 值 所 对 应 的 聚 类 弓 
图 1 可 看 出 , 相 比 于 DCD，GoDCD 对 不 同 o 值 时 的 精度 波动 更 
小 ,这 说 明 GoDCD 比 DCD 更 稳定 。 


ERE. M 


0.902 0.619 
GoDCD 
GoDCD 
9s 0.618 
0.898 
0.617 
S 0.896 5 
0.616 
0.894 
0.892 0.615 
0.89 0.614 
44 145 15 155 16 165 74 76 78 80 82 
入 入 
图 3 数据 集 iris 上 不 同 4 值 图 4 数据 集 heart 上 不 同 1 值 


对 应 的 聚 类 纯度 


对 应 的 聚 类 纯度 


参数 4 是 GoDCD 相对 于 DCD 增加 的 一 个 模型 参数 。 若 4 


太 大 , 则 会 出 现 聚 类 严重 依赖 初始 关联 


更 新 后 的 关联 和 矩阵 远离 数 


选择 问题 ,如 何 选 择 最 优 尚 无 可 靠 理 论 。 
和 iris 数据 集 上 ,使 用 4 的 不 
4 在 一 定 的 范围 内 变化 时 


4 中 可 看 出 , 当 
表现 较 平缓 ,这 部 分 4 


其 原因 之 一 是 : 


4 ”结束 语 


为 提高 聚 类 效果 ,本 文 提出 了 图 优化 的 双 


E 阵 的 依赖 程度 。 


ERE: 若 1 太 小 , 则 会 出 现 
的 原 结构 。 然 而 , 4 的 选择 属于 模型 
图 2 显示 GoDCD Æ heart 
司 值 所 对 应 的 聚 类 纯度 。 从 图 
, 聚 类 纯度 随 着 4 的 变化 
也 说 明 GoDCD 相对 于 参数 1 是 较 稳 定 的 。 

即使 初始 关联 矩阵 选取 得 不 太 好 ,但 由 于 其 被 优 
化 ,所 以 GoDCD 减轻 了 对 初始 关联 入 


3 和 


随机 和 矩阵 分 解 聚 类 


方法 GoDCD ,这 推广 了 原始 的 DCD 聚 类 方法 .在 GoDCD 中 ， 


图 优化 和 低 秩 双 随 机 分 解 聚 类 被 集 


成 在 同 


个 


标 
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BR X rp VE 
了 后 续 聚 类 对 初始 图 构建 质量 的 依赖 程度 。 在 部 分 UCI 数据 身 


作 


是 使 图 构建 和 聚 类 达到 联合 最 


,从 而 减轻 


Yr 


上 的 聚 类 实验 结果 表明 ,在 大 多 数 情 况 下 ,GoDCD 方法 比 DCD 方 


法 


有 更 高 的 聚 类 精确 度 和 更 好 的 稳定 性 。 


本 文中 的 GoDCD 方法 仅 用 于 无 监督 聚 类 问题 ,然而 有 效 的 


半 监 督 ü 助 信 息 将 
GoDCD 扩展 到 半 监 督 聚 类 情 


助 于 实现 更 精确 聚 类 。 因 此 ， 如 何 将 
多 是 下 一 个 值得 探讨 的 问题 。 
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